Correlation Analysis(correlation coefficient)

상관 분석(Correlation Analysis)
상관 분석은 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법으로, 상관계수를 활용한다.
+1에 가까우면 강한 양의 상관관계를 -1에 가까우면 강한 음의 상관관계를 가진다.
0에 가까울 수록 상관관계가 없음

상관관계가 있다는 것이 변수 사이에 인과관계가 있다는 의미는 아니다.
산점도 행렬(Scatter Plot Matrix)
산점도와 상관계수를 하나의 산점도 행렬을 통해 시각화 할 수 있다.
상관 관계 귀무가설(H0)
상관 분석의 귀무가설은 두 변수는 아무 상관관계가 없다는 점이다.
p-value가 유의수준보다 작아서 귀무가설을 기각할 수 있다면, 두 변수 간에 유의한 상관관계가 있다고 말할 수 있다.
1. 피어슨 상관 분석(선형적 상관관계)
두 변수가 모두 정규분포를 따른다는 가정이 필요하다.

> X<-c(1, 2, 3, 4, 5)

> Y<-c(3, 6, 4, 9 ,8)

> cor(X, Y, method='pearson')

[1] 0.8062258

2. 스피어만 상관 분석(비선형적 상관관계)
두 변수들이 서열척도일 때 사용하는 상관계수
스피어만 상관계수는 비모수적 방법으로 관측값의 순위에 대하여 상관관계를 계산하는 방법이다.

> X<-c(1, 2, 3, 4, 5)

> Y<-c(3, 6, 4, 9 ,8)

> cor(X, Y, method='spearman')

[1] 0.8

correlation analysis test
time 학습시간(시간) 8 6 7 3 2 4 2 7 2 3
score 점수(점) 33 22 18 6 23 10 9 30 11 13

> time<-c(8, 6, 7, 3, 2, 4, 2, 7, 2, 3)

> score<-c(33, 22, 18, 6, 23, 10, 9, 30, 11, 13)

> cor.test(time, score)


Pearson's product-moment correlation


data:  time and score

t = 3.0733, df = 8, p-value = 0.01527

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

 0.1978427 0.9331309

sample estimates:

      cor 

0.7358112 

p-value가 유의수준 0.05보다 작으므로 귀무가설을 기가한다.
두 변수의 상관계수 추정치(cor)는 0.7358112

두 변수 간(time, score) 상관관계가 있다고 통계적으로 말할 수 있다.